图像生成模型的前几代,包括变异自动编码器[23]和生成广泛的网络[21],利用砂质层的潜在空间来确定编辑方向[15,21,42]。扩散模型[17,43]基于马尔可夫链的变形过程,并且本质上缺乏单个潜在空间。此外,噪声预测主链要么是差异变压器(DIT)[31]或U-NET [38],因此两种构造都缺乏明确选择潜在空间。在U-NET主干的背景下 - 本文的重点 - 训练 - 自由编辑的方法,以编辑重点在交换不同的模块上,包括自我和交叉注意模块和H空间,U-NET的Bot-tleneck。然而,u-net中的一个必需元素,有助于长期依赖的传输和梯度传播,是跳过的连接。与现有工作相反,我们专注于前者及其在基于U-NET的扩散模型中的作用。在本文的其余部分中,我们解决以下问题:(i)在U-NET的跳过连接中表示信息以及何处?(ii)它如何影响图像产生?(iii)在DeNoising过程中何时出现此信息?1
![arxiv:2501.14524v1 [cs.cv] 2025年1月24日PDF文件第1页](/bimg/0/020094c4f3d819588a38a45c776ae9d5d98ccf1c.webp)
![arxiv:2501.14524v1 [cs.cv] 2025年1月24日PDF文件第2页](/bimg/b/b0616ec95338a2db3666124c8eaf88fb70da15f9.webp)
![arxiv:2501.14524v1 [cs.cv] 2025年1月24日PDF文件第3页](/bimg/2/2547ceb216f4e86e083272cb8ff92173363b7d69.webp)
![arxiv:2501.14524v1 [cs.cv] 2025年1月24日PDF文件第4页](/bimg/3/3eb11e17430ceee7aaacbf98d577503a5eca49ed.webp)
![arxiv:2501.14524v1 [cs.cv] 2025年1月24日PDF文件第5页](/bimg/1/1de32562829f340f9350347705b7801eb7910e7b.webp)
